課程大綱

課程資訊

課程名稱	數位語音處理概論 Introduction to Digital Speech Processing
開課學期	102-2
授課對象	電機資訊學院資訊網路與多媒體研究所
授課教師	李琳山
課號	CSIE4611
課程識別碼	922 U3680
班次
學分	3
全/半年	半年
必/選修	選修
上課時間	星期三2,3,4(9:10~12:10)
上課地點
備註	上課地點：電二R229 限學士班三年級以上總人數上限：80人
Ceiba 課程網頁	http://ceiba.ntu.edu.tw/1022CSIE4611_DSP
課程簡介影片
核心能力關聯	核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述	.本課程專為大學部同學所開授。所需要的最主要基礎能力是數學模型(機率、線性代數)及軟體程式，前半強調基礎背景知識，後半則著重研究課題，讓修課同學體會由基礎走入研究的歷程。內容深度適合電機系或資工系大三或大四同學選修。 2.無線網路環境下日新月異並具多元功能的智慧型手機及各種新型的隨身及可穿戴(wearable)電子設備如眼鏡、手錶(iwatch)已開拓了全新的硬體世界，也使網路的終端設備徹底多元化。在輕薄短小的硬體及豐富的應用環境下，由於人的手指不會縮小，原有的鍵盤、滑鼠等個人電腦上網介面將不再方便，語音很顯然成為最方便自然的網路介面之一。另一方面，由於多媒體技術一日千里，具備影音、視訊等多媒體功能的電子設備大量出現，而網路上的數位內容更多以多媒體形式呈現，它們未必具有文字檔案，卻都帶著語音訊息；它們不易瀏覽，但所帶的語音訊息最適合拿來分析重組建構成易於瀏覽的結構化數位內容。於是使用者必然會透過手持設備用語音指令上網，而網路上的數位內容也多以多媒體及語音形式呈現，適於藉其語音訊息來搜尋。今日上網動作中的文字角色將會有相當部分由語音取代，語音訊號處理技術也就自然成為新一代軟硬體技術的關鍵部份。 Part I: Fundamental Topics 1.Introduction 2.Basic Concepts in Speech Recognition 3.Research Roadmap in this Area 4.More about Hidden Markov Models (HMM) 5.Acoustic Modeling 6.Language Modeling 7.Speech Signals and Front-end Processing 8.Linguistic Decoding and Search Algorithm Part II: Research Topics 9. Speech Recognition Updates 10. Speech-based Information Retrieval 11. Spoken Document Understanding and Organization for User-content Interaction 12. Computer-Assisted Language Learning (CALL) 13. Speaker Variabilities: Adaption and Recognition 14. Linguistic Processing and Latent Topic Analysis 15. Robustness for Acoustic Environment 16. Some Fundamental Principles–EM Algorithm 17. Spoken Dialogues 18. Conclusion
課程目標	本課程所需要的最主要基礎能力是數學模型(機率、線性代數)及軟體程式，前半強調基礎背景知識，後半則著重研究課題，讓修課同學體會由基礎走入研究的歷程。內容深度適合電機系或資工系大三或大四同學選修。
課程要求	待補
預期每週課後學習時數
Office Hours
指定閱讀	待補
參考書目	教科書：參考書目：1. X. Huang, A. Acero, H. Hon, “Spoken Language Processing”, Prentice Hall, 2001,松瑞 2. C. Becchetti, L. Prina Ricotti, “Speech Recognition- Theory and C++ implementation”, Johy Wiley and Sons, 1999, 民全 3. L. Rabiner, B.H. Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993, 民全 4. F. Jelinek, “Statistical Methods for Speech Recognition”, MIT Press, 1999 5. D. Jurafsky, J. Martin, “Speech and Language Processing- An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics, 2nd edition”, Prentice-Hall, 2009 6. G. Tur, R. De Mori, “Spoken Language Understanding- Systems for Extracting Semantic Information from Speech”, John Wiley & Sons, 2011
評量方式 (僅供參考)

課程進度

週次

日期

單元主題